[Cover Story] 표본의 모집단 대표성…'통계함정' 안빠지는 척도

입력 2015-02-13 18:54  

Cover Story - 통계의 함정…숫자를 맹신하지 마라


[ 신동열 기자 ] 통계(숫자)는 예측의 대표적 근거다. 통계가 다양하고 객관적일수록 판단이나 예측이 정확해진다. 통계는 판단·예측의 나침반인 셈이다. 하지만 통계나 숫자에는 오류나 허점도 많다. 무엇보다 잘못된 샘플(표본)은 통계 의미를 변질시킨다. 비교통계의 기준이 동일해야 객관적 비교가 가능하다. 표본집단의 크기도 통계의 객관성을 높인다. 표본집단이 작으면 1~2의 샘플로 50~100%라는 수치를 붙이는 오류를 범한다. 작성자의 의도에 따라 통계가 왜곡되는 사례도 적지않다. 통계는 작성자의 객관성이 중요하지만 통계를 정확히 읽을 줄 아는 이해력도 필요하다.


표본이 모집단을 대표해야

통계조사에는 전수조사와 표본조사가 있다. 전수조사는 모집단 전부를 대상으로 통계를 내고, 표본조사는 모집단 중 일부를 추출해 통계를 작성한다. 물론 전수조사가 표본조사보다 훨씬 정확하다. 하지만 현실적으론 시간과 비용의 한계로 대부분 표본조사로 통계를 작성한다.

무엇보다 통계는 표본(샘플)이 모집단을 대표해야 한다. 그러려면 표본의 규모가 어느 이상 커야하고,비교기준이 동일해야 한다. 1960년대 미국의 한 대학에서 여학생 입학을 허용한 뒤에도 반대론자들은 ‘여학생의 33.3%가 교수와 결혼했다’며 여학생 입학의 부작용을 지적했다. 숫자로는 아주 많은 여학생이 교수와 결혼한 것 같다. 하지만 실제로는 처음 입학한 여학생 3명 중 단 한 명만이 교수와 결혼했다. 표본이 너무 작아 모집단을 대표하지 못하는 오류를 범한 것이다. 어렸을 때 우유를 마시면 키가 커진다는 주장을 반박하기 위해 “나는 매일 우유를 마시는데도 키아 작아”라며 우유와 키의 연관성을 부인하는 것 역시 너무 작은 표본의 오류다.

1936년 미국 대선의 여론조사와 실제 대선결과는 ‘표본의 대표성’을 일깨워주는 대표적 사례다. 리터러리 다이제스트는 당시 여론조사를 통해 공화당의 랜던 후보가 57%의 지지율로, 43% 지지율에 그친 루스벨트 민주당 후보를 꺾고 압승할 것으로 예측했다. 하지만 결과는 정반대였다. 실제로는 루스벨트가 61%의 득표율로 39%의 랜덤에 완승하며 대통령에 당선됐다. 예측이 크게 엇나간 것은 바로 ‘표본 추출 방법’ 때문이었다. 리터러리 다이제스트는 구독자와 함께 전화 가입자, 자동차 보유자 명단을 중심으로 여론조사를 했다. 한데 당시 미국에서 전화에 가입하고 자동차가 있는 부유층은 대부분 공화당 지지자였다. 표본이 모집단을 대표하지 못한 것이다.

비교통계의 기준도 동일해야

통계는 흔히 비교에도 자주 인용된다. 이 경우 객관적인 비교가 되려면 통계의 기준이 동일해야 한다. 모집단(표본)의 크기가 같고, 모집단의 성격이 비슷할수록 객관적 비교가 된다. 예를 들어 일본의 실업률이 4%, 미국의 실업률이 5%라고 하자. 이 경우 단위 인구당 미국의 실업자가 많다고 단정하는 것은 금물이다. 왜냐하면 일본에서는 일주일에 하루 이상 고용되면 취업자로 간주하지만 미국에서는 실업자로 취급할 수도 있기 때문이다. 취업자(실업자)를 규정하는 기준이 다른 까닭이다. ‘서울시의 인구가 지난 50년간 2배이상 증가했다’는 통계도 허점이 있다. 서울시의 행정구역이 50년간 넓어진 것도 감안해야 한다는 뜻이다. 사람들이 흔히 통계의 함정에 빠지는 것은 모집단의 크기와 대표성을 간과하기 때문이다.

%와 %포인트는 다르다

숫자에는 곳곳에 함정이 있다. 통계의 기본적인 표현 수단은 퍼센트(%)이다. 퍼센트는 어떤 현상의 변화 추이를 나타내는 데 아주 유용하다. 하지만 퍼센트의 착시에 속는 사람들이 많다. 예컨대 어떤 회사의 주가가 500원에서 30만원까지 치솟았다고 하자. 이 회사 주가는 600배 올라 상승률이 무려 6만%에 달한다. 하지만 이 회사가 부도나 주가가 30만원에서 300원으로 폭락했다면 하락률은 99.9%다. %만으론 훨씬 많이 오르고, 덜 떨어진 것처럼 느껴진다. 상승(증가)률은 ‘0~무한대’로 확장되지만 하락(감소)률은 ‘0~100’에서 움직이기 때문이다.

2015학년도 대입 수능문제에선 %와 %포인트를 잘못 표기해 혼란이 초래됐다. %포인트는 %와 %, 즉 요율 간의 차이를 나타내는 표현이다. 우리나라 1월 실업률이 3.9%, 2월 실업률이 3.6%라면 2월 실업률은 1월보다 0.3%포인트 낮아진 것이다. %는 우리말로 墉隙? 즉 전체를 100으로 봤을때의 그 비율을 말한다.

신동열 한국경제신문 연구위원 shins@hankyung.com



[한경+ 구독신청] [기사구매] [모바일앱]  ⓒ '성공을 부르는 습관' 한국경제신문, 무단 전재 및 재배포 금지

관련뉴스

    top
    • 마이핀
    • 와우캐시
    • 고객센터
    • 페이스 북
    • 유튜브
    • 카카오페이지

    마이핀

    와우캐시

    와우넷에서 실제 현금과
    동일하게 사용되는 사이버머니
    캐시충전
    서비스 상품
    월정액 서비스
    GOLD 한국경제 TV 실시간 방송
    GOLD PLUS 골드서비스 + VOD 주식강좌
    파트너 방송 파트너방송 + 녹화방송 + 회원전용게시판
    +SMS증권정보 + 골드플러스 서비스

    고객센터

    강연회·행사 더보기

    7일간 등록된 일정이 없습니다.

    이벤트

    7일간 등록된 일정이 없습니다.

    공지사항 더보기

    open
    핀(구독)!